徒有虚名的单细胞转录组
最近交流群有小伙伴提问《单细胞转录组》数据分析,我给了他我录制好了3个系列视频,和十套完整代码。但是对方说根本就没有用,我就纳闷了, 我的资料教会了那么多人单细胞数据分析,为什么就渡不了他呢?
就问了他数据集,结果是来源于一个2021发表的最新文献,广西大学的,标题是:《Single-Cell RNA-Seq Revealed the Gene Expression Pattern during the In Vitro Maturation of Donkey Oocytes》,我直接进入文章正文搜索其公布的单细胞数据情况,很容易可以看到:https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=763991
全部的六个样品如下所示:
ILLUMINA (Illumina NovaSeq 6000) run: 23.1M spots, 6.9G bases, 2Gb downloads
Accession: SRX12217372
ILLUMINA (Illumina NovaSeq 6000) run: 20.1M spots, 6G bases, 1.8Gb downloads
Accession: SRX12217371
ILLUMINA (Illumina NovaSeq 6000) run: 21.8M spots, 6.5G bases, 1.9Gb downloads
Accession: SRX12217370
ILLUMINA (Illumina NovaSeq 6000) run: 23.2M spots, 6.9G bases, 2.1Gb downloads
Accession: SRX12217369
ILLUMINA (Illumina NovaSeq 6000) run: 24M spots, 7.1G bases, 2.2Gb downloads
Accession: SRX12217368
ILLUMINA (Illumina NovaSeq 6000) run: 19.7M spots, 5.8G bases, 1.9Gb downloads
Accession: SRX12217367
也就是说,它并不是我们常规描述的单细胞转录组数据,其实本质上仍然是一个普普通通的转录组数据,分成了2个组,每个组里面是3个样品而已!
既然是常规的转录组实验设计,所以基本上按照我们转录组数据分析思路来即可!
首先是质量控制
质量控制最重要的就是3张图了啊,如下所示:
我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:主成分图和样品相关性热图,都是为了说明我们的分组的差异是大于组内样品的差异的。
然后是差异分析
既然说明了们的分组的差异是大于组内样品的差异的,接下来就可以很简单的对两个分组进行普普通通的差异分析啦!
差异分析的图表也是固定的,火山图和热图!这个基本上 公众号推文即可,在:
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
最后是上下调基因的go和kegg数据库注释
有了上下调基因列表,就可以进行标准的生物学功能数据库注释了,其实MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:
H: hallmark gene sets (癌症)特征基因集合,共50组,最常用; C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少; C2: curated gene sets:(专家)校验基因集合,基于通路、文献等: C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分 C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合; C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分) C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据 C7: immunologic signatures: 免疫相关基因集合。
不过,通常情况下,大家并不需要对MSigDB数据库的全部类别的全部基因集进行注释,看看go和kegg数据库注释即可,如下所示:
全文升华需要一个故事落脚点
作者选择了 glycosylation genes. 主要是 N-Glycan biosynthesis 和 mucin-type O-Glycan biosynthesis 这两个 通路进行热图可视化。
而且,按照惯例,大家会实验验证部分差异基因,因为历史遗留原因,大家对ngs的高通量找差异的结果持怀疑态度。一般来说,就是 qPCR Validation 啦!
其实这个认知的冲突来源于
smart-seq2和10x技术的5大差异
Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的,它们代表着单细胞的两个全然不同的发展策略。
绝大部分的技术原理介绍会从 单细胞悬浮液制备到测序细节面面俱到,其实并不那么的初学者友好,最近有粉丝在公众号后台留言说他们的博士课程有一个思考题是:简要概述smart-seq2和10x技术的单细胞差异。
然后他给大家推荐了一个高度精炼的综述,这个综述于2020年9月发表在 《Experimental & Molecular Medicine》杂志,标题是:《Single-cell sequencing techniques from individual to multiomics analyses》,链接是:https://www.nature.com/articles/s12276-020-00499-2
可以看到,smart-seq2技术依赖于C1这个仪器,每次都是96个细胞一起测序,每个细胞的测序量这个综述可能是写错了,应该是1M-10M为佳,不太可能是100-1000个M,最重要的是它是整个RNA分子的全长测序,每个细胞都是独立的测序。
但是10X呢,每次可以测好几千的细胞,每个细胞只需要5-10K的reads,而且仅仅是测RNA分子的一段即可,全部的细胞都混合在一起,虽然说有barcode可以区分。
这样的基础认知,也可以看基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班: